Ansys光子学Lumerical FDTD硬件配置信息建议

2024-05-27 12:47| 来源: 网络整理| 查看: 265

本文中，我们打算为希望购买新硬件的用户提供一些一般提示和指南，或者只是有兴趣了解某些计算机硬件组件如何影响单个工作站和高速计算机/集群上的Lumerical模拟速度的用户。

内存大小（内存）

内存大小决定了可以在计算机上运行的模拟设计或项目的大小。只要整个模拟可以放入RAM，它就不会影响模拟速度，否则计算机可能会被迫将内存交换到硬盘驱动器（或者应用程序将提供错误）。如果发生交换，模拟速度将非常慢。

如今的台式计算机通常具有 8-32 GB 的 RAM，足以运行大部分模拟。工作站通常具有 32-128 GB 的 RAM，足以运行几乎所有模拟。您可以检查运行FDTD模拟需要多少内存。

内存带宽（内存）

运行 Lumerical 仿真时，必须在 RAM 和 CPU 之间连续传输大量数据。当内存总线无法足够快地传输数据时，处理器将被迫等待，从而限制仿真的整体速度。例如，在具有 8 个内核的典型台式计算机上，与一个内核相比，使用 2 个内核时，模拟速度可能会提高 3- 倍。因此，在购买计算机时，拥有快速的内存带宽非常重要。

CPU 核心数

我们的模拟工具将尝试使用您的所有 CPU 内核尽快运行。但是，正如我们上面所了解的，我们的仿真是内存带宽有限的，因此添加更多内核并不总是使仿真速度更快。大多数用户在迁移到更高内核数的 CPU 时看到的加速通常是由于 CPU 架构的其他（与内存相关）改进。

大多数 CPU 都支持超线程，这允许操作系统将每个物理 CPU 内核视为两个逻辑内核。此功能不会为 FDTD 仿真提供任何速度提升，因为整体性能瓶颈是 CPU 和 RAM 之间的数据传输速率，而不是内核的实际计算能力。

中央处理器时钟速度

CPU 时钟速度通常不是 Lumerical 仿真速度的最重要因素。虽然更快的时钟速度确实允许每个内核更快地运行，但整体仿真速度受到 CPU 和 RAM 之间访问的限制。

具有多个 CPU 的工作站

具有多个CPU的工作站是提高仿真速度的好方法。最重要的因素是每个CPU都有自己的内存总线连接到RAM。如上所述，CPU 和 RAM 之间的数据传输速率是性能瓶颈，因此每个 CPU 有一个内存总线，可以很好地与 CPU 的数量进行模拟速度缩放。

例：

的“”为 107 GB/s。单个工作站中最多可以安装 4 个这样的处理器，总带宽为 4 x 107 = 430 GB/s。为了获得最佳性能，应使用 DDR4-2400 内存模块。Intel Xeon Gold 5115Maximum memory bandwidth

参考： - 英特尔至强金牌处理器 65- 至强金牌 5115 处理器规格 63 - 英特尔至强处理器 - 价值分析 65

群集（网络上的多台计算机）

在一台计算机不够的应用程序中，可以通过网络连接多台计算机以形成“集群”。FDTD解决方案在集群上运行时支持2种模式：通过网络运行多个模拟（并发参数计算）和跨多台计算机运行单个大型复杂模拟（分布式计算）。

网络速度和延迟在单台计算机上本地运行模拟时，网络速度对模拟速度没有任何影响。在单台计算机上远程运行模拟，或在集群上运行多个模拟（即扫描或优化）时，网络延迟对模拟速度没有影响，网络速度只会影响检索结果的速度。当在多台计算机上运行单个大型模拟时，网络速度非常重要 - 在这种情况下，建议使用高速，低延迟的互连，例如InfiniBand。云计算

在做出购买决定之前，或者在长期硬件投资没有意义的情况下，您可以使用云计算服务来评估最新的硬件：

亚马逊云科技：实例类型 “通用型”和“计算优化型”。在 AWS 上运行 FDTD 解决方案。 Microsoft Azure：实例类型：“ 常规用途”、“计算优化”和“高性能计算”。在 Azure 上运行 FDTD 解决方案Microsoft 。更多... 显卡支持

从 2023 R2 版本开始，Lumerical FDTD 现在支持 GPU 处理。

FDTD GPU 求解器信息

自 2023 R2 版本起，FDTD 支持 GPU 计算。本页总结了FDTD GPU求解器的要求和当前限制。

要在GPU上运行FDTD模拟，您需要Nvidia CUDA驱动程序版本450.80.02或更高版本（Linux）和版本452.39或更高版本（Windows）。此外，您的 Nvidia GPU 必須符合以下規定：

GPU 必须提供大于或等于 3.0（开普勒微架构或更高版本）的计算能力。旧设备的驱动程序已于 2019 年月停产。统一内存必须可用且已启用始终在台式机、笔记本电脑和裸机服务器上启用通常在通告“GPU 直通”的云实例（包括 AWS EC2 实例）上启用其他虚拟环境服务提供商应查阅 NVidia 虚拟 GPU 软件用户指南。虚拟机监控程序必须配置为提供 GPU 直通（其中物理设备专用于特定虚拟机）可能需要为每个特定的 vGPU 启用统一内存。

要监控 GPU 使用情况，请使用 NVidia 系统管理命令行实用程序报告的“GPU-Util”值。Windows 用户应注意，Windows 任务管理器仅报告与图形相关的 GPU 利用率。

许可要求

GPU 求解器许可证消耗与 CPU 求解器类似（请参见 Ansys 光学求解、加速器和 Ansys HPC 许可证消耗）。对于许可证使用情况计算，我们将流式处理多处理器（SM）视为 CPU 的核心。例如，对于Ansys标准/商业许可，每32条SM都需要Lumerical Accelerator（引擎许可证），且不进行部分计数。例如，具有 40 条短信的 GPU 需要两个许可证才能运行任何作业。

FDTD 作业将使用 GPU 中所有可用的 SM，即每个作业的 SM 数量不是用户可配置的。因此，必须有足够的许可证可用于所有 GPU SM。

对于多个作业，建议串联运行它们，而不是并行运行。并行运行所需的许可证数量与作业数量一样多，但与串行运行所需的时间大致相同。例如，在具有 32 个或更少 SMS 的 GPU 中同时运行两个作业需要两个许可证，但这与仅使用一个许可证在同一台计算机上运行一个作业所需的时间大致相同。

GPU 中的 SM 数量可以在 NVidia 的文档、第三方网站上找到，方法是运行 GPU 资源的作业管理器配置测试（仅限本地主机），

在日志文件中运行 FDTD GPU 引擎时

start loading CUDA query DLL... load CUDA query DLL successfully. GPU streaming multiprocessors(SMs): 16

或在FDTD GPU引擎运行后，FDTD结果“总GPU短信”

注意：与 CPU 一样，总内存带宽对于性能比内核数量更重要（请参阅 CPU 上的 FDTD 基准测试）。

模拟要求

FDTD GPU 求解器只能运行 3D FDTD 模拟。“快速模式”选项应在FDTD对象属性（高级选项选项卡）中启用。

GPU 求解器适用于窄带仿真或使用非色散材料进行仿真。禁用所有动画监视器。

用户将作业管理器从“CPU”切换到“GPU”

如果本地计算机上有多个 GPU，用户可以在作业管理器中选择特定的 GPU。运行引擎时，作业管理器将配置标准CUDA_VISIBLE_DEVICES环境变量。如果远程计算机上有多个 GPU，用户可以通过为 mpiexec.exe 指定适当的“额外命令行选项”来选择特定的 GPU。例如，要在具有 Microsoft MPI 的远程计算机上选择 GPU 3，请提供额外的命令行选项 /env CUDA_VISIBLE_DEVICES 3

脚本访问/自动化

FDTD 求解器属性“快速模式”

setnamed("FDTD", "express mode", true);

FDTD 资源管理器：

setresource("FDTD","GPU", true); setresource("FDTD", 3, "GPU Device", "Auto"); setresource("FDTD", "GPU", false); setresource("FDTD", "CPU", true); //< equivalent to previous line

为了允许远程主机 GPU，不会验证“GPU 设备”的值。默认值为“自动”。用户需要设置一个整数值。

当前限制 FDTD 求解器

仅支持 PML 边界条件。不支持布洛赫、周期、对称、反对称、PEC、PMC 边界条件。

来源模式源/端口：不支持频率相关模式配置文件。总场散射场（TFSF）来源：不支持 TFSF 源。显示器时间监视器：时间监视器会限制 GPU 性能。我们建议仅将它们用于调试和初步模拟。不支持空间插值。频域监视器：不支持部分和总光谱平均不支持切趾其他图层构建器如果任何层生成器使用受限进程文件，则无法使用 FDTD GPU 引擎

【本文地址】

公司简介

联系我们